หน้า 1 จากทั้งหมด 1

แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้นแบบ

โพสต์แล้ว: จันทร์ พ.ค. 03, 2021 10:36 am
โดย tritep009
แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้
ข้อมูลจาก https://www.berkshirehathaway.com/ เป็นต้นแบบ
หลักการและเหตุผล
เป้าหมายคือการหาหุ้นต่างประเทศในดวงใจ ผ่านการใช้ เทคโนโลยีในการค้นหา
เหตุผลในการเลือก berkshirehathaway.com เพราะเป็นกิจการที่ประสบความสำเร็จ
และมีข้อมูลต่อเนื่องยาวนาน ผ่านหลายช่วงวงจรเศรษฐกิจ มีข้อมูลที่สอดคล้องกับ
การใช้ NLP - Natural Language Processing (subset ของ Machine Learning & AI)
และ Sentiment Analysis (subset ของ NLP)
ตัวอย่าง https://www.berkshirehathaway.com/letters/letters.html และ
https://www.berkshirehathaway.com/wesco/WescoHome.html
https://www.berkshirehathaway.com/Speci ... TMLtr.html
ที่สำคัญ เป็นบริษัท ที่มีคนสนใจมาก หากผลวิเคราะห์ผิดไปจากที่ควร ก็สามารถ มีผู้มาให้
ความเห็นได้

แนวทางเดินปัจจุบัน
1. ใช้เครื่องมือ Sentiment Analysis กับข้อมูลใน berkshirehathaway.com ที่มีลักษณะรายปี
2. ใช้ BERT กับ 10-K ของ berkshirehathaway.com
3. ใช้ FinBERT กับ 10-K ของ berkshirehathaway.com
4. ใช้ BERT กับ 10-K ของ บริษัท ลูก berkshirehathaway.com
5. ใช้ FinBERT กับ 10-K ของ บริษัท ลูก berkshirehathaway.com
6. หาความสัมพันธ์ของ คะแนน Sentiment Analysis แต่ละปี กับ ตัวเลขอื่นๆ เช่น ผลกำไร, GDP Growth, อัตราการว่างงาน .....
7. เมื่อหา แนวทางหรือมาตราฐานได้ระดับหนึ่ง แล้ว จึงนำไปมองหากิจการ ที่ มี คะแนน Sentiment Analysis ที่คล้ายกับต้นแบบ
เบื้องต้นอาจผ่าน 10-K



หมายเหตุ
เป็นโครงการที่ คิดไป ทำไป ปรับปรุงไป
สำหรับ สายเทคโนโลยี อาจใช้ FaceBooK เป็นต้นแบบ
**************************************************************************
Output
Requirement already satisfied: newspaper3k in /usr/local/lib/python3.7/dist-packages (0.2.8)
Requirement already satisfied: Pillow>=3.3.0 in /usr/local/lib/python3.7/dist-packages (from newspaper3k) (7.1.2)
Requirement already satisfied: beautifulsoup4>=4.4.1 in /usr/local/lib/python3.7/dist-packages (from newspaper3k) (4.6.3)
Requirement already satisfied: PyYAML>=3.11 in /usr/local/lib/python3.7/dist-packages (from newspaper3k) (3.13)
Requirement already satisfied: feedparser>=5.2.1 in /usr/local/lib/python3.7/dist-packages (from newspaper3k) (6.0.2)
Requirement already satisfied: cssselect>=0.9.2 in /usr/local/lib/python3.7/dist-packages (from newspaper3k) (1.1.0)
Requirement already satisfied: tinysegmenter==0.3 in /usr/local/lib/python3.7/dist-packages (from newspaper3k) (0.3)
Requirement already satisfied: jieba3k>=0.35.1 in /usr/local/lib/python3.7/dist-packages (from newspaper3k) (0.35.1)
Requirement already satisfied: python-dateutil>=2.5.3 in /usr/local/lib/python3.7/dist-packages (from newspaper3k) (2.8.1)
Requirement already satisfied: tldextract>=2.0.1 in /usr/local/lib/python3.7/dist-packages (from newspaper3k) (3.1.0)
Requirement already satisfied: lxml>=3.6.0 in /usr/local/lib/python3.7/dist-packages (from newspaper3k) (4.2.6)
Requirement already satisfied: nltk>=3.2.1 in /usr/local/lib/python3.7/dist-packages (from newspaper3k) (3.2.5)
Requirement already satisfied: feedfinder2>=0.0.4 in /usr/local/lib/python3.7/dist-packages (from newspaper3k) (0.0.4)
Requirement already satisfied: requests>=2.10.0 in /usr/local/lib/python3.7/dist-packages (from newspaper3k) (2.23.0)
Requirement already satisfied: sgmllib3k in /usr/local/lib/python3.7/dist-packages (from feedparser>=5.2.1->newspaper3k) (1.0.0)
Requirement already satisfied: six>=1.5 in /usr/local/lib/python3.7/dist-packages (from python-dateutil>=2.5.3->newspaper3k) (1.15.0)
Requirement already satisfied: idna in /usr/local/lib/python3.7/dist-packages (from tldextract>=2.0.1->newspaper3k) (2.10)
Requirement already satisfied: requests-file>=1.4 in /usr/local/lib/python3.7/dist-packages (from tldextract>=2.0.1->newspaper3k) (1.5.1)
Requirement already satisfied: filelock>=3.0.8 in /usr/local/lib/python3.7/dist-packages (from tldextract>=2.0.1->newspaper3k) (3.0.12)
Requirement already satisfied: urllib3!=1.25.0,!=1.25.1,<1.26,>=1.21.1 in /usr/local/lib/python3.7/dist-packages (from requests>=2.10.0->newspaper3k) (1.24.3)
Requirement already satisfied: chardet<4,>=3.0.2 in /usr/local/lib/python3.7/dist-packages (from requests>=2.10.0->newspaper3k) (3.0.4)
Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.7/dist-packages (from requests>=2.10.0->newspaper3k) (2020.12.5)
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data] Package punkt is already up-to-date!
###################################################
Insurance Underwriting Our insurance operation continued to grow significantly in 1977.
In aggregate, the insurance business has worked out very well.
The newest addition to our insurance group is Cypress Insurance Company of South Pasadena, California.
Insurance companies offer standardized policies which can be copied by anyone.
In its first full year of operation, earnings amounted to $8,782.
###################################################
['https://www.berkshirehathaway.com/letters/1977.html', 'Insurance Underwriting Our insurance operation continued to grow significantly in 1977.\nIn aggregate, the insurance business has worked out very well.\nThe newest addition to our insurance group is Cypress Insurance Company of South Pasadena, California.\nInsurance companies offer standardized policies which can be copied by anyone.\nIn its first full year of operation, earnings amounted to $8,782.',
Sentiment Score = 0.29374999999999996, '2021-05-03 , 02:54:05 , GMT']
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data] Package punkt is already up-to-date!
###################################################
Operating earnings, exclusive of capital gains, at 19.4% of beginning shareholders’ investment were within a fraction of our 1972 record.
Neither this 25% equity gain from all sources nor the 19.4% equity gain from operating earnings in 1978 is sustainable.
Home and Automobile Insurance Company had its best year since John Seward stepped in and straightened things out in 1975.
In its first year as a subsidiary, Cypress Insurance Company, managed by Milt Thornton, turned in outstanding results.
It does not enter into our reported operating earnings, but we feel it well may have equal long-term significance to our shareholders.
###################################################
['https://www.berkshirehathaway.com/letters/1978.html', 'Operating earnings, exclusive of capital gains, at 19.4% of beginning shareholders’ investment were within a fraction of our 1972 record.\nNeither this 25% equity gain from all sources nor the 19.4% equity gain from operating earnings in 1978 is sustainable.\nHome and Automobile Insurance Company had its best year since John Seward stepped in and straightened things out in 1975.\nIn its first year as a subsidiary, Cypress Insurance Company, managed by Milt Thornton, turned in outstanding results.\nIt does not enter into our reported operating earnings, but we feel it well may have equal long-term significance to our shareholders.',
Sentiment Score = 0.4375, '2021-05-03 , 02:54:06 , GMT']
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data] Package punkt is already up-to-date!
###################################################
We previously have carried such equity securities at the lower of aggregate cost or aggregate market value.
At yearend 1979, book value with equity holdings carried at market value was $335.85 per share.
Insurance Investments In recent years we have written at length in this section about our insurance equity investments.
Prospects Last year we said that we expected operating earnings in dollars to improve but return on equity to decrease.
We continue to feel very good about our insurance equity investments.
###################################################
['https://www.berkshirehathaway.com/letters/1979.html', 'We previously have carried such equity securities at the lower of aggregate cost or aggregate market value.\nAt yearend 1979, book value with equity holdings carried at market value was $335.85 per share.\nInsurance Investments In recent years we have written at length in this section about our insurance equity investments.\nProspects Last year we said that we expected operating earnings in dollars to improve but return on equity to decrease.\nWe continue to feel very good about our insurance equity investments.',
Sentiment Score = 0.10722222222222222, '2021-05-03 , 02:54:06 , GMT']
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data] Package punkt is already up-to-date!
###################################################
In these cases, accounting rules dictate that the owning companies include in their earnings only dividends received from such holdings.
But when purchase prices are sensible, some long-term market recognition of the accumulation of retained earnings almost certainly will occur.
Our insurance companies will continue to make large investments in well-run, favorably-situated, non-controlled companies that very often will pay out in dividends only small proportions of their earnings.
The distributed portion, of course, finds its way into the table primarily through the net investment income section of Insurance Group earnings.
Thus, undistributed earnings applicable to this holding alone may amount to 40% of total reported operating earnings of Berkshire.
###################################################
['https://www.berkshirehathaway.com/letters/1980.html', 'In these cases, accounting rules dictate that the owning companies include in their earnings only dividends received from such holdings.\nBut when purchase prices are sensible, some long-term market recognition of the accumulation of retained earnings almost certainly will occur.\nOur insurance companies will continue to make large investments in well-run, favorably-situated, non-controlled companies that very often will pay out in dividends only small proportions of their earnings.\nThe distributed portion, of course, finds its way into the table primarily through the net investment income section of Insurance Group earnings.\nThus, undistributed earnings applicable to this holding alone may amount to 40% of total reported operating earnings of Berkshire.',
Sentiment Score = 0.07785714285714286, '2021-05-03 , 02:54:07 , GMT']
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data] Package punkt is already up-to-date!
###################################################
Furthermore, the case says that since the equity capital position is associated with greater risk than passive forms of investment, it is “entitled” to higher returns.
But American equity capital, in aggregate, produces no value-added for individual investors.
But in no way are we immune from the pressures that escalating passive returns exert on equity capital.
Insurance Industry Conditions “Forecasts”, said Sam Goldwyn, “are dangerous, particularly those about the future.” (Berkshire shareholders may have reached a similar conclusion after rereading our past annual reports featuring your Chairman’s prescient analysis of textile prospects.)
We therefore strongly urged those nominees, mostly brokerage houses, to promptly transmit our letter to the real owners.
###################################################
['https://www.berkshirehathaway.com/letters/1981.html', 'Furthermore, the case says that since the equity capital position is associated with greater risk than passive forms of investment, it is “entitled” to higher returns.\nBut American equity capital, in aggregate, produces no value-added for individual investors.\nBut in no way are we immune from the pressures that escalating passive returns exert on equity capital.\nInsurance Industry Conditions “Forecasts”, said Sam Goldwyn, “are dangerous, particularly those about the future.” (Berkshire shareholders may have reached a similar conclusion after rereading our past annual reports featuring your Chairman’s prescient analysis of textile prospects.)\nWe therefore strongly urged those nominees, mostly brokerage houses, to promptly transmit our letter to the real owners.',
Sentiment Score = 0.09999999999999999, '2021-05-03 , 02:54:08 , GMT']
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data] Package punkt is already up-to-date!
###################################################
Should the stock market advance to considerably higher levels, our ability to utilize capital effectively in partial- ownership positions will be reduced or eliminated.
At that time, such equity holdings amounted to about 15% of our insurance company investments versus the present 80%.
The acquirer who nevertheless barges ahead ends up using an undervalued (market value) currency to pay for a fully valued (negotiated value) property.
If 2X is issued for X, the imbalance still exists when both parts double in business value.)
Under such circumstances, the first blow is the loss of intrinsic business value that occurs through the merger itself.
###################################################
['https://www.berkshirehathaway.com/letters/1982.html', 'Should the stock market advance to considerably higher levels, our ability to utilize capital effectively in partial- ownership positions will be reduced or eliminated.\nAt that time, such equity holdings amounted to about 15% of our insurance company investments versus the present 80%.\nThe acquirer who nevertheless barges ahead ends up using an undervalued (market value) currency to pay for a fully valued (negotiated value) property.\nIf 2X is issued for X, the imbalance still exists when both parts double in business value.)\nUnder such circumstances, the first blow is the loss of intrinsic business value that occurs through the merger itself.',
Sentiment Score = 0.05714285714285715, '2021-05-03 , 02:54:08 , GMT']
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data] Package punkt is already up-to-date!
###################################################
o We will issue common stock only when we receive as much in business value as we give.
o We will be candid in our reporting to you, emphasizing the pluses and minuses important in appraising business value.
It is important to understand, however, that the two terms - book value and intrinsic business value - have very different meanings.
Book value tells you what has been put in; intrinsic business value estimates what can be taken out.
One of our goals is to have Berkshire Hathaway stock sell at a price rationally related to its intrinsic business value.
###################################################
['https://www.berkshirehathaway.com/letters/1983.html', 'o We will issue common stock only when we receive as much in business value as we give.\no We will be candid in our reporting to you, emphasizing the pluses and minuses important in appraising business value.\nIt is important to understand, however, that the two terms - book value and intrinsic business value - have very different meanings.\nBook value tells you what has been put in; intrinsic business value estimates what can be taken out.\nOne of our goals is to have Berkshire Hathaway stock sell at a price rationally related to its intrinsic business value.',
Sentiment Score = 0.1625, '2021-05-03 , 02:54:09 , GMT']
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data] Package punkt is already up-to-date!
###################################################
As we discussed last year, the gain in per-share intrinsic business value is the economic measurement that really counts.
The obvious point involves basic arithmetic: major repurchases at prices well below per-share intrinsic business value immediately increase, in a highly significant way, that value.
This upward revision, in turn, produces market prices more in line with intrinsic business value.
We remain unconventional in the degree to which we concentrate the investments of our insurance companies, including those in WPPSS bonds.
This concentration makes sense only because our insurance business is conducted from a position of exceptional financial strength.
###################################################
['https://www.berkshirehathaway.com/letters/1984.html', 'As we discussed last year, the gain in per-share intrinsic business value is the economic measurement that really counts.\nThe obvious point involves basic arithmetic: major repurchases at prices well below per-share intrinsic business value immediately increase, in a highly significant way, that value.\nThis upward revision, in turn, produces market prices more in line with intrinsic business value.\nWe remain unconventional in the degree to which we concentrate the investments of our insurance companies, including those in WPPSS bonds.\nThis concentration makes sense only because our insurance business is conducted from a position of exceptional financial strength.',
Sentiment Score = 0.18219696969696966, '2021-05-03 , 02:54:10 , GMT']
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data] Package punkt is already up-to-date!
###################################################
The elimination of the discount means that Berkshire’s market value increased even faster than business value (which, itself, grew at a pleasing pace).
Over the long term there has been a more consistent relationship between Berkshire’s market value and business value than has existed for any other publicly-traded equity with which I am familiar.
I urge you to read those sections as well as Charlie Munger’s letter to Wesco shareholders, which starts on page 56.
The company’s intrinsic business value, however, was considerably less because the textile assets were unable to earn returns commensurate with their accounting value.
And its $100 million stock market valuation was published daily for all to see.
###################################################
['https://www.berkshirehathaway.com/letters/1985.html', 'The elimination of the discount means that Berkshire’s market value increased even faster than business value (which, itself, grew at a pleasing pace).\nOver the long term there has been a more consistent relationship between Berkshire’s market value and business value than has existed for any other publicly-traded equity with which I am familiar.\nI urge you to read those sections as well as Charlie Munger’s letter to Wesco shareholders, which starts on page 56.\nThe company’s intrinsic business value, however, was considerably less because the textile assets were unable to earn returns commensurate with their accounting value.\nAnd its $100 million stock market valuation was published daily for all to see.', Sentiment Score = 0.035416666666666666, '2021-05-03 , 02:54:11 , GMT']
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data] Package punkt is already up-to-date!
###################################################
In our own case, however, book value has served for more than a decade as a reasonable if somewhat conservative proxy for business value.
That is, our business value has moderately exceeded our book value, with the ratio between the two remaining fairly steady.
Under current stock market conditions, we have little hope of finding equities to buy for our insurance companies.
A discussion of our reasons for preferring this form of presentation is in the Appendix to this letter.
o Dividend and interest income received by our insurance companies will be taxed far more heavily under the new law.
###################################################


end of Output
Remark : ข้อความที่ปรากฎ ใช้ เครื่องมือ Text.Summary ซึ่งใช้เพื่อสรุปเรื่องราว มิใช่จดหมายทั้งฉบับ
****************************************************************************************************************************************************
pic001.png

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: จันทร์ พ.ค. 03, 2021 1:52 pm
โดย tritep009
ประเมินศักยภาพของ Text Sentiment Analysis ในค่ายหรือแนวคิดต่างๆ และเปรียบเทียบกับที่ใช้ในปัจจุบัน

Link:
https://scholar.google.co.th/scholar?q= ... i=scholart

https://investigate.ai/investigating-se ... xtanalysis

https://realpython.com/python-nltk-sent ... t-analyzer

https://docs.microsoft.com/en-us/archiv ... t-analysis

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: จันทร์ พ.ค. 03, 2021 4:38 pm
โดย tritep009
ประเด็นเพิ่มเติม
ควรนำ Function ของ NLTK มาใช้วิเคราห์ เอกสารหรือไม่
เช่น เรื่อง Frequency Distributions
ตัวอย่างการใช้งาน
words: list[str] = nltk.word_tokenize(text)
fd = nltk.FreqDist(words)
เพื่อให้เห็นภาพว่าเรื่องใด เป็นที่สนใจมากที่สุด
หรือ เรื่อง most common
ตัวอย่างการใช้งาน
fd.most_common(3)
[('must', 1568), ('people', 1291), ('world', 1128)]
fd.tabulate(3)
must people world
1568 1291 1128
ความเห็นเพิ่มเติม most_common น่าจะนำมาใช้โดยรวมเอกสารตั้งแต่ปี 1977-2020 ด้วยหรือไม่
นอกจากทำเป็นรายปี หรือ ควรตัดช่วงเวลารวมกันตาม สภาพเศรษฐกิจดี เช่น 1977-1982, 1982-1997, 1997-2002, 2000-2010 เป็นต้น

ควรจะใช้ scikit-learn Classifiers กับ NLTK ในมุมใดบ้าง และจะนำมาต่อยอดอย่างไร

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: จันทร์ พ.ค. 03, 2021 4:58 pm
โดย Peter1011
Please advice me which library you are using and is it necessary to train the program prior to use it to read 10-K?

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: จันทร์ พ.ค. 03, 2021 6:52 pm
โดย tritep009
From this paper I found that in training model it needs so much resources , so I think , I have to wait or find more information about FinBERT or may be wait for some academic research about how to use NLP in Financial Sector that need less resources. This paper also indicate that "Earning call" do not need FinBERT because it not uses so much financial word.

paper:https://www.researchgate.net/publicatio ... uage_tasks
University of California, Berkeley
FinBERT: pre-trained model on SEC filings for financial natural language tasks

Here are some information from this paper:
"Our available corpus consists of 131,153 10-K’s filed by 11,494 separate corporations. To avoid taxing EDGAR, we only ran a single thread to pull data, 900GB in total, and the process took approximately 78 hours to complete."

"We trained FinBERT using two servers each with two 32GB V100 GPUs on the IBM Cloud"
The training process was accelerated using Hovorod (Sergeev and Balso,2018) [17], adistributed deep learning framework on TensorFlow,which allows inter-GPU communication, either in-side the same environment or with GPUs on other servers, as seen in Figure 2. Another significanttechnique used for faster training is the NVIDIA im-plementation of AMP (Automatic Mixed Precision)(NVIDIA,2019) [10], which halves the precision of the tensors to FP16 where possible, but maintains the network accuracy, as seen on Figure 3. Using these techniques, we sped up the pre-training of the models to around 2 days each."

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: พฤหัสฯ. พ.ค. 06, 2021 4:23 pm
โดย tritep009
ผลการ Run ทดสอบ เบื้องต้น จากการดึงข้อมูล จดหมายถึงผู้ถือหุ้น ปี 1977-1986
สรุปเฉพาะ คำที่พบบ่อย 20 ลำดับแรก
1. คำว่า Would ไม่ปรากฎใน สองปีแรก แต่มีขึ้นๆ ลงๆใน ปี ถัดๆ มา ราว 20 ครั้ง/ปี ขึ้นไป
2. เรื่อง Earning ดูจะเป็นเรื่องสำคัญมีการกล่าวถึงจำนวนมากในเกือบทุกปี
3. ใน 3-4 ปีแรก พูดถึง การรับประกัน ค่อนข้างมาก แล้ว ค่อยๆ หายไป
4. การพูดถึง ธุรกิจประกัน มีแนวโน้มลดลง ในช่วงปี ท้ายๆ
5. คำว่า "Instrinsic" ติดอันดับในปี 1982
(ตัวเลขคือจำนวนที่ปรากฎในเอกสาร)
pic002.png

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: เสาร์ พ.ค. 08, 2021 3:30 pm
โดย tritep009
ผลการ Run ทดสอบ Sentiment Analysis จดหมายถึงผู้ถือหุ้น
ปี 1977-1997
เทียบ สองแบบ แบบแรก มององค์รวมแล้วให้คะแนน
จาก -1 แย่มาก , 0 เป็นกลาง , 1 ดีมาก
แบบที่สอง ประเมินคำ เชิงลบ เชิงบวก กลางๆ ว่า
เป็นสัดส่วนเท่าใด

ข้อสังเกตุ
มีคำที่ใช้บ่อย มาก บ้าง น้อยบ้างในแต่ละปี
เช่น earning , value , would
ที่น่าสังเกตุ คือ ใน ช่วง 1987-1997
มีคำว่า stock เพิ่มขึ้นมา
pic003.png
pic004.png

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: เสาร์ พ.ค. 08, 2021 5:58 pm
โดย tritep009
การหาหุ้นต่างประเทศ 10x
สำหรับผมคือการมองหา CEO 10x ตัวอย่างกิจการที่สำเร็จ ระดับโลกมาจาก CEO มากกว่า
มาจากตัวสินค้าและบริการที่ให้เพียงอย่างเดียว เป็นซีอีโอ บวกวิสัยทัศน์ บวก โอกาสทางธุรกิจ
ตัวอย่าง Microsoft Facebook Tesla Berkshire Apple Alibaba ล้วนมาจากบุคคล
สำหรับ google มาจากอรรถประโยชน์

การมีแนวคิดที่ถูกต้องเป็นสิ่งสำคัญ ดังนั้นสำหรับผมการหา 10x คือการหา CEO 10 x ครับ

ทำไมผมถึงใช้ nlp (national language processing)

เพราะ nlp สามารถช่วยสะท้อนความคิดเห็นของบุคคลได้ผ่านภาษาที่เขาใช้
มองเห็นทัศนคติ และพอให้ทราบว่า เขาสนใจสิ่งใดเป็นพิเศษครับ

สรุปคือ หาคนที่ใช่ ในกิจการที่ใช่ครับ

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: จันทร์ พ.ค. 10, 2021 12:45 pm
โดย tritep009
แก้ไขครับ NLP = Natural Language Processing (Speech to Text ทำพิษอีกแล้ว)

ประเด็นเพิ่มเติม ในการศึกษา 10-Q และ 10-K
XBRL เครื่องมือในการเข้าถึงข้อมูล ของ SEC และ EDGAR system
Link : http://xbrl.squarespace.com/

Vedio:
1. https://www.youtube.com/watch?v=nATJBPO ... lesHoffman
2. https://www.youtube.com/watch?v=ibfQwRT ... lesHoffman

เท่าที่ฟังดูเบื้องต้น คล้ายๆ เป็น ภาษา HTML สำหรับ โลก บัญชีและการเงิน

ตัวอย่าง Link การเข้าถึงข้อมูล งบ Facebook
https://www.sec.gov/ix?doc=/Archives/ed ... 210331.htm

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: อาทิตย์ พ.ค. 16, 2021 5:57 pm
โดย tritep009
ถ้าผมตีความตามนี้แปลว่า คุณลุง Buffett ยังมองโลกสดใสครับ
Sentiment Analysis จดหมายถึงผู้ถือหุ้น Berkshires ปี 1977-2020 (ปีที่ต่ำคือ 2008 และ 2017).png

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: จันทร์ พ.ค. 17, 2021 3:17 pm
โดย tritep009
ความถี่ในการใช้คำ (จดหมายถึงผู้ถือหุ้น ปี 1977-2020)
ความถี่ในการใช้คำ 1977-2020.png

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: อังคาร พ.ค. 18, 2021 2:59 pm
โดย tritep009
ผลการทดสอบการนำแนวคิดการใช้ NLP
โดยใช้ Management Discussion and Analysis Quarter 1 Ending 31 Mar 2021 (ฉบับภาษาอังกฤษ)
ของ 10 บริษัท BBL SCB KBANK ADVANC PTT PTTEP PTTGC SCC CPALL STA
top10_01.png
top10_02.png

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: พฤหัสฯ. พ.ค. 20, 2021 12:29 pm
โดย tritep009
การใช้ NLP เปรียบเทียบจดหมายในวาระครบรอบ 50 ปี
คุณ Buffett กับ คุณ Munger

โดยสรุป คุณ Munger มองโลกสวยกว่า คุณ Buffett
(0.1445 ต่อ 0.1693) และดูเหมือน คุณ Munger จะสนใจใน
ระบบงานและบริษัทย่อย และภาคทำงานจริง
คุณ Buffett เขียน 15 หน้า พูดถึง คุณ Munger 19 ครั้ง
คุณ Munger เขียน 5 หน้า พูดถึง คุณ Buffett 25 ครั้ง

Link:
https://www.berkshirehathaway.com/Speci ... 202014.pdf

https://www.berkshirehathaway.com/Speci ... 202014.pdf
letter50.png
โดยสรุป สำหรับผม ต้องมีหัวหอก นักคิด นักยุทธศาสตร์ บวก นักปฎิบัติ ทำงานประสานกัน

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: อาทิตย์ พ.ค. 23, 2021 3:35 pm
โดย tritep009
การใช้ COLAB ของ Google ดึงข้อมูล 10-K จาก ระบบ EDGAR
คำสั่ง
#https://pypi.org/project/sec-edgar-downloader/
!pip install -U sec-edgar-downloader
import pandas as pd
from sec_edgar_downloader import Downloader

dl = Downloader()
dl.get("10-K", "FB" , amount = 1)
dl
***************************************************************
ไปเปิด file ดู โดยกดที่รูป folder จะได้ข้อมูลดังภาพครับ
pic01.png
***************************************************************
ทำการ Download ได้ มาเปิดดูใน Browser อีกครั้ง
pic02.png
pic03.png

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: อาทิตย์ พ.ค. 30, 2021 9:06 am
โดย tritep009
เอกสารฉบับนี้เป็นการทำการศึกษาเกี่ยวกับ
AN ANALYSIS OF SPECULATIVE LANGUAGE IN SEC 10-K FILINGS

ซึ่งถึงแม้จะผ่านมา หลายปีแล้วแต่ก็ให้ แนวทางและบ่งบอกปัญหาในการใช้ NLP กับ 10-K หรือ 10-Q เช่น คำว่า Cancer อาจเป็นเชิงลบ ในการวิเคราะห์ทั่วๆไป แต่อาจเป็นเชิงบวก หากนำมาวิเคราะห์ใน Sector Healthcare หรือ ค้นพบว่า ในหัวข้อ management’s discussion ผู้บริหารอาจพูดในเชิงบวกเพื่อกลบผลเชิงลบที่กำลังจะออกมาในช่วงเวลาต่อไป

สามารถ Download เอกสารมาอ่านได้ที่
https://cdr.lib.unc.edu/downloads/d504rp73r

อาจจะซับซ้อนบ้างสำหรับคนที่ไม่ได้ศึกษาเรื่อง NLP แต่ก็ให้มุมมองอย่างกว้างได้ตามสมควรครับ

บทสรุปของเอกสาร
6. Conclusion
This study created a model for speculative language based on the MPQA corpus
and applied the resulting model to a corpus of financial documents. The documents with
the most speculative sentences contained a different concentration of terms compared to
the complete collection on a TF.IDF basis. Specifically terms such as regulation, fund,
and supplier were ranked much higher in the documents with the highest amount of
speculative sentences. Upon further examination some of the sentences labeled as
speculative contained discussion regarding potential risks to the firm, especially
pertaining to projects, pensions and taxes. The model succeeded in labeling these 30
particular groups of sentences that perhaps could be overlooked within these large
documents by a human reader.

Speculation is a necessity when communicating possible future events, so there
needs to be some level of speculation present in all financial documents. Firms deciding
to overuse speculation may be cloaking risks, but firms that choose to underutilize
speculation may not be fully expressing the possible opportunities and dangers to the
firm. In this study the relative concentration of speculative sentences was taken as the
barometer for the abnormality of a document, and therefore its worthiness of further
inspection.
That does not necessarily mean that any of these firms were using speculation
inappropriately. The statements within these filings are very particular to the operations
of the firm at a point in time, and one firm’s choice to use more or less speculative
language compared to the rest of the industry may be more indicative of its particular
situation than any planned manipulation of the text for the purpose of obfuscating
financial results.
Speculative sentences are often connected to some underlying risk that an event
may or may not occur, and capturing the amount of speculation in a document could be
critical to a field such as finance which is built around risk modeling. This study will
hopefully improve the visibility of this issue within financial filings. If the SEC continues
to enforce the “plain English” guidance, these document should reflect the actual
underlying sentiment of the firm’s management, and therefore serve as an important
source of information beyond financial figures.

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: พุธ มิ.ย. 02, 2021 3:00 pm
โดย tritep009
Project Pending
สาเหตุหลัก
เกิดจากการที่ EDGAR เปลี่ยนวิธีการจัดเก็บข้อมูลจากรูปแบบ html ธรรมดาไปเป็น xbrl จากการทดสอบข้อมูล 10 k ของบริษัท Berkshire ในปี 2019 และ 2020 (ช่วงปี 2009 ถึง 2018 ยังประมวลผลได้) พบว่าเมื่อดึงเข้ามาประมวลผลโดยใช้ python มีปัญหาในการแยกคำ เนื่องจาก python เป็นภาษาหลักในการประมวลผลด้าน machine learning
ปัจจุบันยังไม่มี utility ที่ใช้เชื่อมต่อระหว่าง python กับ xbrl ที่เชื่อถือได้ จึงส่งผลให้ต้องรอจนกว่าจะมี utility นี้เสียก่อน เท่าที่พบในปัจจุบันมีแค่การเชื่อมต่อในเชิงการระบุเส้นทางเข้าถึงข้อมูลเท่านั้น เท่าที่พบในประเด็นอื่นคือการดึงข้อมูลในระบบ EDGAR ตามมาตรฐาน GAAP มาแสดงผล แต่ยังไม่ครอบคลุมทุกรายละเอียด

*******************************************
อ้างอิง
https://www.codeproject.com/Articles/12 ... ith-Python
https://pypi.org/project/python-xbrl/
https://pypi.org/project/py-xbrl/
https://github.com/xbrlus
********************************************
Berkshine Link
#2020
#https://www.sec.gov/Archives/edgar/data ... SK_FACTORS
#2019
#https://www.sec.gov/Archives/edgar/data ... SK_FACTORS
#2018
#https://www.sec.gov/Archives/edgar/data ... oc678758_3
#2017
#https://www.sec.gov/Archives/edgar/data ... oc437858_3
#2016
#https://www.sec.gov/Archives/edgar/data ... oc303001_2
#2015
#https://www.sec.gov/Archives/edgar/data ... oc103603_3
#2014
#https://www.sec.gov/Archives/edgar/data ... oc820461_3
#2013
#https://www.sec.gov/Archives/edgar/data ... oc656225_3
#2012
#https://www.sec.gov/Archives/edgar/data ... oc484968_3
#2011
#https://www.sec.gov/Archives/edgar/data ... tx280149_2
#2010
#https://www.sec.gov/Archives/edgar/data ... oc154094_2
#2009
#https://www.sec.gov/Archives/edgar/data ... toc49005_2

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: อังคาร มิ.ย. 08, 2021 3:32 pm
โดย tritep009
สรุปปัญหาของระบบ EDGAR
EDGAR, the Electronic Data Gathering, Analysis, and Retrieval system,

ความมุ่งหมายเดิม เพื่อสืบค้นข้อมูลของ บริษัทฯ ต่างๆได้อย่างสะดวกและ
ใช้หลักให้คอมพิวเตอร์ ทำงานแทนคน พบปัญหาดังนี้
1. จากการใช้ aapl เป็นต้นแบบในการสืบค้น พบว่า โครงสร้างการอ้างอิงไม่ต่อเนื่องเป็นเนื้อเดียวกัน
เช่น ก่อน ปี 2000 มี บางปี มีการสร้างตารางข้อมูล แต่ไม่ปรากฎ Link เชื่อมโยง (มีขนาด File แต่ Link เชื่อมโยงไปยังเอกสารไม่มี)
2. จากปี 2019 เป็นต้นมา เปลี่ยนโครงสร้างการเชื่อมโยงใหม่และวิธีอ้างอิงใหม่ ทำให้การสืบค้น ไม่เป็นหลักเดียวกัน
ตลอดทั้งระบบ (ไม่น่าเชื่อว่า เบอร์หนึ่งของโลกก็ยังทำแบบนี้)
3. การบันทึกข้อมูลจาก ปี 2019 เป็นต้นมา เปลี่ยนจาก HTML ธรรมดา เป็น XBRL ซึ่งยังไม่มีการเชื่อมต่อ
ที่เชื่อถือได้ ถูกพัฒนาขึ้นกับ การใช้ ภาษา Python
4. ถ้าจะสืบค้น ต้องใช้คน หา Link ซึ่งไม่ตรงกับแนวคิดเริ่มต้น มองว่าเปลืองทรัพยากรมากเกินไป
5. XBRL ใช้ ทรัพยากรมากในการเข้าถึงข้อมูล และ การพัฒนาด้าน API (Application Program Interface) ยังไม่แพร่หลาย

########## ปิดโครงการ การสืบค้นโดยระบบคอมพิวเตอร์ กับ 10-Q และ 10-K ##########
:juju: :juju: :juju:

สุดท้ายมองจาก คนสายงานด้านเทคโนโลยี เห็นว่า ระบบ EDGAR ยังขาด Framework ที่ดี ขาด การจัดการฐานข้อมูลที่เชื่อถือได้และเป็นระบบ คล้ายๆ ทำไป ปะผุไป ไม่ยอมยกเครื่องให้เป็นเรื่องเป็นราวครับ

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: ศุกร์ มิ.ย. 11, 2021 11:15 am
โดย tritep009
work around process ในการเข้าถึงข้อมูล 10-Q หรือ 10-K
******************************************************************
การขยายผลของการ Work around processs
1. ยังคงสามารถเข้าถึงข้อมูล 10-Q และ 10-K ได้ โดยสามารถนำข้อความที่ได้ มาใช้ประโยชน์ ที่ต้องทำเพิ่มคือส่วนของ
Management’s Discussion and Analysis of Financial Condition and Results of Operations
ซึ่งมีทั้งข้อความและตาราง
2. ลำดับถัดไป คือ ให้ Program Python อ่านจาก google sheet โดยใน sheet ระบุ เลข cik ทำการ run โปรแกรม
ใน colab ส่งผลกลับมาที่ google sheet และส่งผลข้อความ ของแต่ละปี มายัง sheet (เริ่มต้นเฉพาะ Risk Factors ก่อน)
3. นำข้อความใน sheet ไปหา คะแนน Sentiment Analysis ในแต่ละปี และส่งผล คะแนนกลับมายัง sheet
4. โดยสรุปคือ สามารถประมวลผลได้ ต่อหนึ่ง บริษัท น่าจะราว ไม่เกิน 15-30 นาที ต่อ เอกสาร 10-K ของระยะเวลา 10 ปี
Project : สถานะ เดินหน้าต่อได้
******************************************************************
รายละเอียดขั้นตอน ประกอบด้วย
1. Function Download จาก EDGAR
คำสั่งหลัก
#https://pypi.org/project/sec-edgar-downloader/
!pip install -U sec-edgar-downloader
2. หาที่ตั้ง ของ local file ที่ download from EDGAR (แทนการ link โดยตรงบน Website ที่มีปัญหาการอ้างอิง linkในการเชื่อมโยงเอกสารต่างๆ ในขณะที่การ Download มีรูปแบบคงที่กว่า เปลี่ยนเฉพาะตัวเลขชุดหลังคำว่า 10-K เท่านั้น)
คำสั่งหลัก
from bs4 import BeautifulSoup
import requests
import sys
cik = '0001067983'
type = '10-K'
dateb = ''
base_url = "https://www.sec.gov/cgi-bin/browse-edga ... ={}&dateb={}"
edgar_resp = requests.get(base_url.format(cik, type, dateb))
ตัวอย่าง Link ที่ได้
"/content/sec-edgar-filings/0001067983/10-K/0001564590-21-009611/filing-details.html"
เลขที่ต้องการคือ 0001564590-21-009611 ซึ่งเหมือนกันทั้งบน website และการ Download
3. Function เอาเฉพาะข้อความ
คำสั่งหลัก
import xml.etree.ElementTree as ET
tree = ET.parse(location)
root = tree.getroot()
4. เจาะจงเฉพาะ Risk Factors
คำสั่งหลัก
result1 = words.find('Item 1A. Risk Factors')
result2 = words.find('Item 1B. Unresolved Staff Comments')
result3 = result2-result1
result_end = len(words)
result4 = result_end - result2
result5 = words[result1 : -result4 + 35]
ปัญหาที่พบ "None" ตามหลังหมายเลขหน้า
5. เขียนผลที่ได้ลง Google Sheet
คำสั่งหลัก
import gspread_dataframe as gd
from google.colab import auth
auth.authenticate_user()
import gspread
from oauth2client.client import GoogleCredentials
gc = gspread.authorize(GoogleCredentials.get_application_default())
ws = gc.open("edgar02").worksheet("risks")

******************************************************************
ภาพตัวอย่างเอกสารที่เข้ามาใน Sheet
work_around01.png

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: เสาร์ มิ.ย. 12, 2021 12:13 pm
โดย tritep009
ในที่สุด ร่างแรกของตัวชึ้วัดที่จะใช้ในการหาหุ้นต่างประเทศในดวงใจ ก็ขึ้นรูปได้สำเร็จ เป็นการนำ Risk Factors ใน 10-K ของ Berkshire มาทำ Sentiment Analysis (สาขาย่อย ของ Machine Learning) หลังจากเริ่มคิดและตั้งกระทู้ รวม เวลา 40 วัน คงจะศึกษาต่อไปโดยนำ บริษัทใหญ่ ด้าน Technology มาเปรียบเทียบผลกันครับ
ML_S01.png
ML_S02.png

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: อาทิตย์ มิ.ย. 13, 2021 6:32 pm
โดย tritep009
ข้อมูลของ Apple 10-K Risk Factors ปี 2011-2020
ภาพแรก เป็นจำนวนการใช้คำต่างๆ ใน Risk Factors
ML_S04_AAPL.png
ภาพที่สอง ค่าของ Sentiment Analysis (ค่าลดลงแสดงว่าความเสี่ยงสูงขึ้น)
ML_SO3_AAPL.png

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: อังคาร มิ.ย. 15, 2021 11:42 am
โดย tritep009
เหตุผลทำไมผมจึงสนใจ nlp
เพราะภาษาอังกฤษไม่ใช่ภาษาพูดภาษาเขียนของเรา ความเข้าใจที่ลึกซึ้ง ย่อมต่างจากภาษาไทย เราอ่านแล้วอาจจะเข้าใจ แต่น้ำหนักของคำก็มีความหมายเสมอ เช่น "ไม่ชอบ" "เกลียด" ภาษาอังกฤษก็เช่นกัน important กับ significant อย่างนี้เป็นต้น เราอ่านแล้วอาจคิดว่าเข้าใจหมดแล้ว แต่น้ำหนัก ของคำก็ยังเป็นปัญหา การใช้ nlp และ sentiment analysis มาเพื่อปิดจุดอ่อน เพื่อยืนยันว่าเราเข้าใจถูกต้องครับ ระบบอาจจะไม่ต้องเริดหรู มาก เอาพอเป็นเครื่องนำทางและยืนยัน หากจะทำให้ดีเลิศก็อาจต้องใช้เวลามาก แต่ที่สำคัญรู้ว่า ระบบของเราเป็นอย่างไร ยกตัวอย่างเช่น อาจจะไม่ต้องอ่านเอกสารทั้ง 10 ปี เลือกเอาปีที่ค่า sentiment สูงโด่ง ปีที่ต่ำมาอ่าน และปีที่มีค่ากลางๆ มาอ่าน เพื่อให้ได้ภาพ หากสนใจก็อ่านต่อให้ครบ 10 ปีครับ ผมมุ่งหวังว่าระบบนี้จะเป็นเหมือนไม้บรรทัดที่ใช้วัด บริษัทต่างๆ ทำให้สะดวกมากขึ้นครับ
***********************************************************************************************
ตัวอย่างการ ศึกษา Risk Factors 10-K ของ GameStop ครับ

Sentiment Analysis Score
gme03.png

การศึกษา คำที่ใช้บ่อยใน Risk Factors 10-K
gme02.png
การดึงมาลง worksheet ครับ
gme01.png

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: พุธ มิ.ย. 16, 2021 4:25 pm
โดย tritep009
Sentiment Score comparison :
วันนี้ ถือโอกาสฟัง Risk Factors 10-K อันที่ส่งล่าสุดของ 4 บริษัท (โดยใช้ Software @Voice อ่าน)
ทำให้เห็นภาพปัญหาของแต่ละกิจการ ต่างๆ กันไปจากผลของ Covid-19
ฺคะแนนอันดับหนึ่ง Berkshire ความยาว 15 นาที แทบไม่ละคายผิวจาก Covid-19 กังวลเรื่อง IT Securities
คะแนนอันดับสอง APPLE ยาวสุด 52 นาที ปัญหาที่กังวลและกระทบ ช่องทางการขาย (เหมือน GameStop) , IT Security, ปัญหาเรื่องทรัพย์สินทางปัญญา
คะแนนอันดับสาม AMAZON ราว 45 นาที ปัญหาที่กังวล IT Security
คะแนนอันดับ.... GameStop ราว 48 นาที ปัญหาเพียบ ได้คะแนน Sentiment Score ราว 1 ใน 10 ของ Berkshire หลายปี ต่ำกว่า 0
Risk Factors 10-K Sentiment Score _ AAPL, AMZN, BERKSHIRE และ GAMESTOP.png

Re: แนวคิดการใช้ Machine Learning ในการหาหุ้นต่างประเทศในดวงใจโดยใช้ ข้อมูลจาก https://www.berkshirehathaway.com เป็นต้

โพสต์แล้ว: พฤหัสฯ. มิ.ย. 17, 2021 10:11 am
โดย tritep009
เช้านี้ Update Risk Factors 10-K ของ Microsoft (MSFT) ครับ
ภาพแรก Sentiment Analysis Score
msft01.png
ภาพที่สอง การกระจายของการใช้คำ ในรอบ 10 ปี
msft02.png
ภาพที่สาม เปรียบเทียบกับบริษัทอื่นๆ
msft03.png